推出 TracIn：估算训练数据影响力的简单方法

2024-07-15 17:48| 来源: 网络整理| 查看: 265

文 / Frederick Liu 和 Garima Pruthi，Google Research 软件工程师

机器学习 (ML) 训练数据质量会对模型性能产生重大影响。衡量数据质量的一个指标是影响力 (Influence)，即给定训练样本对模型及其预测性能的影响程度。尽管对于 ML 研究人员来说，影响力是一个普遍的概念，但由于深度学习模型背后的复杂性及其规模、特征和数据集的不断增长，都使得影响力难以量化。

最近出现了一些量化影响力的方法。有一些放弃了一个或几个数据点，依赖于再训练时准确率的变化，还有一些使用既定的统计方法，例如，估计扰动输入点影响的影响力函数，或将预测分解为训练样本的加权重要性组合的表示方法。还有其他方法需要使用额外的估算，例如使用强化学习的数据估值。尽管这些方法在理论上是合理的，但它们在产品中受限于大规模运行所需的资源或者对训练造成的额外负担。

在 NeurIPS 2020 上作为焦点论文发表的“Estimating Training Data Influence by Tracing Gradient Descent”中，我们针对这一挑战提出了 TracIn，这是一种简单的可扩展方法。TracIn 背后的想法很直接：跟踪训练过程，捕获各个训练样本被访问时预测的变化。TracIn 能够有效地从各种数据集中找到错误标记的样本和离群值，并为每个训练样本分配影响力分数，非常有助于理解训练样本（而不是特征）的预测。

Estimating Training Data Influence by Tracing Gradient Descenthttps://arxiv.org/pdf/2002.08484.pdf

TracIn 的基本理念

深度学习算法通常使用一种称为随机梯度下降 (SGD) 的算法或其变体进行训练。SGD 的操作是对数据进行多次传递，并修改模型参数，以减少每次传递的局部损失（即模型的目标）。下图的图像分类任务就是一个示例，模型的任务是预测左侧测试图像的主体（“西葫芦”）。随着模型在训练过程中的进行，它会暴露在影响测试图像损失的各种训练样本中，其中损失是预测分数和实际标签的函数 - 西葫芦的预测分数越高，损失越低。

【本文地址】

公司简介

联系我们